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关联 数据 中 owl:sameAs 网 络 分 析 


RER 李 HE 


(山西 大 学 经 济 与 管理 学 院 太原 030006) 


摘要 : [ 目的】 调研 owl:sameAs 连接 在 真实 数据 网 络 中 的 配置 和 应 用 情况 。[ 方法 】 从 BTC 2014 数据 集中 抽取 
部 分 数据 , 应 用 统计 学 方法 对 样本 数据 构成 的 sameAs 网 络 进行 结构 分 析 、 域 名 分 析 和 实例 类 型 分 析 。[ 结果 】 


数据 分 析 结 果 表 明 , 真实 数据 网 络 中 sameAs 连接 较 稀 玻 ,等 同 实 体 网 络 中 大 多 数 实体 只 建立 了 单个 连接 。[【 局 限 】 
样本 数据 数量 有 限 ， 未 能 更 全 面 地 深入 分 析 。[ 结论 】 该 研究 分 析 可 以 为 关联 数据 中 基于 实例 水 平 的 数据 集成 、 


本 体 对 齐 、 知 识 发 现 以 及 跨 数据 集 查询 等 提供 参考 。 
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1 5] Ë 

关联 数据 (Linked Data) 建 立 在 网 络 标准 技术 如 
HTTP, RDF 和 URIs 的 基础 上 趾 , 通过 发 布 结构 化 数 
据 ， 建立 数据 相互 连接 而 实现 数据 的 增值 。 数 据 网 络 
(Web of Data) 是 关联 数据 集 的 集合 , 也 称 为 关联 开放 
数据 (Linked Open Data). 2017 年 2 月 20 H, W3C X 
联 开 放 数 据 项 目 发 布 最 新 的 关联 开放 数据 云图 
(Linked Open Data Cloud, LOD Cloud), LOD 云图 中 包 
含 的 关联 数据 集 已 经 由 2007 年 5 月 的 12 个 数据 集 增 
长 到 1139 个 , 内 容 涵盖 地 理 、 政 府 、 生 命 科学 语言、 
媒体 、 出 版 物 、 社 交 网 络 、 用 户 生成 内 容 9 个 领域 外。 
在 过 去 的 几 年 中 ,， 越 来 越 多 的 社区 将 其 数据 以 关联 数 
据 的 形式 发 布 到 LOD 中 , 这 种 快速 增长 使 得 LOD zx 
图 成 为 知识 发 现 和 自动 问答 等 应 用 的 实验 平台 。 数 据 
发 布 者 根据 自身 需要 采用 不 同 词 表 术语 或 自 定义 术语 
表示 数据 ， 对 于 现实 世界 中 的 同一 实体 对 象 , 不 同 的 
数据 发 布 者 从 自身 角度 出 发 从 不 同 维度 赋予 其 标识 并 
进行 描述 从 而 增加 了 数据 共享 的 难度 。 从 不 同 数据 
集 发 现 同 一 实体 , 可 以 提高 数据 的 互 操作 性 。 因 此 , 识 
别 不 同 数据 集 的 相同 实体 已 成 为 数据 的 关联 问题 之 
一 , 被 人 们 关注 并 研究 。 拥有 不 同 标识 或 URIs 两 个 实 


体 对 象 , 通过 实例 级 关系 owl: sameAs 彼此 连接 .有 研 
TRH, 数据 集资 源 之 间 最 重要 的 连接 谓词 之 一 是 
owl:sameAsPl。 找 出 不 同 数据 集中 基于 owl:sameAs i 
义 的 实例 也 被 定义 为 “实例 对 齐 ” 外 。 

近 几 年 ,本体 对 齐 被 认为 是 LOD 中 最 重要 的 研 
究 问 题 之 一 , 它 是 数据 集成 、 监 数据 集 查 询 及 知识 获 
取 的 前 提 条 件 。 在 LOD 环境 中 , 本 体 对 齐 主要 包括 
三 个 部 分 : 概念 (类 ) 对 齐 ， 属 性 对 齐 和 实例 对 齐 广 。 本 
体 对 齐 中 的 很 多 研究 基于 实例 之 间 的 owl:sameAs 连 
接 展 开 。Parundekar 等 中 提出 , 识别 属于 概念 的 等 同 
(基于 owl:sameAs 连接 ) 实 例会 导致 这 些 概念 之 间 的 
对 齐 。Correndo 等 四 在 对 齐 概念 中 采用 一 种 利用 实例 
之 间 的 owl: sameAs 连接 以 及 Jaccard 系数 测量 实例 
EAA. Nikolov 等 中 利用 owl: sameAs 
连接 推断 LOD 中 的 本 体 概 念 之 间 的 映射 。Gunaratna 
等 外 提出 一 种 可 以 在 LOD 环境 中 使 用 的 属性 对 齐 的 
方法 ,利用 数据 实例 之 间 的 现 有 实体 共 现 链接 (如 使 
用 owl:sameAs 和 skos:closeMatch 形式 的 链接 ) 匹 配属 
性 扩展 。 

为 了 建立 更 多 的 外 部 关联 ,数据 发 布 者 通过 一 些 
自动 和 半自动 的 方法 发 现 网 络 中 的 等 同 实体 ， 并 建立 
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owl:sameAs 连接 。 因 此 , 伴随 着 数据 网 络 的 急速 增长 ， 
跨 数据 集 实例 之 间 的 owl:sameAs 连接 数量 也 在 增长 。 
虽然 单个 owl:sameAs 谓词 仅 连 接 两 个 资源 , 但 当 数 据 
网 络 中 所 有 的 owl:sameAs 谓词 及 其 连接 的 RDF 资源 
汇聚 在 一 起 时 ， 就 形成 一 张 巨大 的 有 向 图 ， 称 为 
sameAs 网 络 。 本 文 对 真实 数据 网 络 中 的 sameAs 网 络 
作 统 计 学 分 析 ， 以 期 得 到 跨 数 据 集 之 间 实 例 的 
owl:sameAs 配置 和 使 用 情况 ,为 关联 数据 中 基于 实例 
水 平 的 数据 集成 、 本 体 对 齐 、 跨 数据 集 查 询 以 及 知识 
发 现 等 研究 提供 参考 。 


2 owl:sameAs 特性 


owl:sameAs 是 万 维 网 本 体 语言 (OWL) 的 一 个 内 建 
属性 , 用 于 将 两 个 个 体 连接 在 一 起 。 事 实 上 要 求 每 个 
人 都 使 用 相同 的 名 字 指 称 同一 个 个 体 是 不 现实 的 。 当 
两 个 不 同 URI 参 引 实际 指 的 是 同一 个 事物 时 , 可 以 通 
过 属性 owl:sameAs 将 它们 相连 ,表明 被 连接 的 两 个 个 
体 有 相同 的 “身份 部]。 比如， 可 以 通过 以 下 陈述 表示 两 
个 URI 参 引 实际 指 的 是 同一 个 人 : 

<rdf:Descriptionrdf:about="#William Jefferson Clinton" 


«owl:sameAs rdf:resource="#BillClinton"/> 
«/rdf: Description 


假设 拥有 不 同 URL 的 两 个 个 体 是 相同 的 实体 , 或 
者 单个 个 体 拥 有 多 个 名 字 , 可 以 通过 owlsameAs 属性 
声明 它们 的 同一 性 关系 。owl:sameAs 广泛 应 用 于 关联 
数据 集中 , 通过 可 参 引 的 HTTP URL 提供 了 可 以 指向 
外 部 “等 价 ?" 资 源 的 可 选 方式 URL 自身 可 以 唯一 识别 
远程 文档 中 的 匹配 资源 。owl:sameAs 陈述 经 常用 来 定 
义 本 体 之 间 的 映射 站。 在 关联 数据 社区 中 ， 由 于 
owl:sameAs 可 以 连接 分 布 式 数据 集中 的 相同 资源 ， 
此 它 经 常 被 用 来 支持 关联 数据 聚合 。 

sameAs 陈述 : 是 指 由 owl:sameAs 谓词 连接 两 个 
RDF 资源 构成 的 三 元 组 。 其 中 , 两 个 资源 及 谓词 都 由 
可 参 引 的 HTTP URL 作为 标识 符 。 如 下 所 示 为 一 个 
sameAs 陈述 : 


<http://data.linkedmdb.org/resource/film/13508> 
«http://www.w3.0rg/2002/07/owltsameAs? 
«http://dbpedia.org/resource/The Temptress?. 


sameAs 网 络 : 网 络 从 图 论 意义 上 理解 是 指 由 节点 
和 连 线 构成 的 图 , 可 以 用 带 箭头 的 连 线 表示 从 一 个 节 
点 到 另 一 个 节点 存在 的 某 种 顺序 关系 中。 把 数据 网 络 
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中 所 有 sameAs 陈述 中 的 RDF 资源 表示 成 节点 ,用 有 
方向 的 连 线 表示 owl:sameAs 关系 , 由 此 形成 的 网 络 称 
之 为 sameAs 网 络 。 


3 数据 采集 和 分 析 


为 获得 真实 数据 网 络 中 owlsameAs 的 使 用 情况 ， 
本 文选 择 的 数据 来 源 于 Billion Triple Challenge (BTC) 
2014 数据 集中 。BTC 2014 数据 集 对 网 络 数 据 的 覆盖 
比率 很 高 ， 其 使 用 包括 VOID 描述 和 数据 管理 系统 
CKAN 所 有 示例 URIs 在 内 的 众多 数据 源 作为 种 子 集 
合 , ERHET TESH, 截止 到 2014 年 6 月 , 共 
采集 4090 758 596 个 RDF 三 元 组 , 其 中 包含 大 量 的 
sameAs 陈述 。 本 文 从 该 数据 集中 抽取 了 4 个 数据 包 ， 
共计 2 096 904 个 三 元 组 ,进行 处 理 和 分 析 , 使 用 的 数 
据 处 理工 具 主 要 是 SQL Server。 通 常 假设 顶级 域名 相 
同 的 数据 来 自 同一 个 数据 集 。 为 了 获得 真实 数据 网 络 
中 不 同 数据 集 之 间 的 互联 方式 , 对 数据 进一步 处 理 ， 
首先 去 掉 无 效 和 重复 记录 , 然后 提取 主体 和 客体 资源 
的 顶级 域名 ， 从 而 得 到 主体 和 客体 资源 分 别 来 自 不 同 
数据 集 的 三 元 组 共有 190549 个 。 基 于 实例 的 数据 集 
之 间 通 过 不 同 的 谓词 实现 互联 。 对 谓词 进行 统计 ， 租 
选 出 URI 有 效 链接 并 且 为 多 个 数据 集 之 间 通 用 的 谓 
词 ， 如 表 1 所 示 , 可 以 看 出 owl:sameAs 连接 为 数据 集 
互联 做 出 了 巨大 的 贡献 。 

190 549 个 三 元 组 中 有 45 846 个 sameAs 陈述 。 
统计 这 些 sameAs 陈述 中 用 于 表示 owl:sameAs 属 性 的 
谓词 形式 及 数量 , 如 表 2 所 示 。 可 知 ,在 数据 网 络 中 
绝 大 多 数 sameAs 陈述 都 使 用 了 <http://www.w3.org/ 
2002/07/owl#sameAs> 这 一 规范 的 表达 形式 表示 sameAs 
属性 。 

另外 , 由 于 Wikipedia 有 多 个 语言 版 本 ， 基 于 
Wikipedia 的 DBpedia 数据 集 也 具备 多 语言 知识 库 特 
性 ， 目 前 可 支持 多 达 92 种 语言 。DBpedia 中 的 资源 与 
它 的 各 个 语言 版 本 下 对 应 资源 也 建立 了 大 量 的 
sameAs 连接 ,类 似 这 样 的 陈述 总 共有 3 505 条 。 这 部 
分 数据 对 研究 意义 不 大 , 因此 从 45 846 个 sameAs 陈 
述 中 把 上 述 3 505 条 移 除 ,最 终 得 到 42 341 条 sameAs 
陈述 ， 其 主 、 客 体 资 源 来 自 不 同 的 数据 集 。 笔 者 将 这 
42 341 个 sameAs 陈述 形成 的 集合 称 为 样本 数据 集 , 由 
之 形成 的 sameAs 网 络 称 为 样本 sameAs 网 络 。 
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del 数据 集 间 互 联 统计 


谓词 缩写 


谓词 URI 及 备注 数量 


rdf:type 


owl:sameAs 


skos:exactMatch 


rdfs:seeAlso 


«http://www.w3.0rg/1999/02/22-rdf-syntax-ns&type» 定义 实例 和 类 之 间 的 联系 64 449 
<http://www.w3.org/2002/07/owl#sameAs> 表示 由 不 同 URI 标识 的 两 个 RDF 资源 指 的 是 同一 个 对 象 ”44 746 
<http://www.w3.org/2004/02/skos/core#exactMatch> 连接 两 个 有 足够 的 可 信 度 并 在 信息 检索 应 用 程 
序 较 大 范围 可 以 交替 使 用 的 概念 ， 是 skos:closeMatch 的 子 属 性 

«http://www.w3.org/2000/01/rdf-schemafiseeAlso» 将 一 个 资源 关联 到 另 一 个 解释 它 的 资源 5 570 
«http://www.w3.0rg/2004/02/skos/coretcloseMatch» 连接 两 个 足够 相似 以 致 在 一 些 信息 检索 应 用 程 
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skos:closeMatch 序 可 以 交 蔡 使 用 的 概念 1 490 
dcterms:type «http://purl.org/dc/terms/type» 描述 文件 格式 、 物 理 媒介 或 资源 的 维度 1 170 


表 2 owl:sameAs 谓词 表达 形式 


sameAs 谓词 AE op 
«http://www.w3.0rg/2002/07/owltsameAs^ 44 746 97.60% 
«http://www.w3.org/2000/01/rdf-schemazisameAs»^ 631 1.3896 
<owl:sameAs> 445 0.9796 
«htpp://www.abes.fr/owlsameAs?^ 16 0.0396 
«http://lexvo.org/ontologyZnearlySameAs- 4 0.009% 
«http://linkedgeodata.org/ontology/gadmSameAs» 4 0.00995 


3.1 sameAs 网 络 特征 分 析 

sameAs 网 络 具 有 一 定 的 网 络 拓扑 结构 ,通过 对 其 
结构 的 分 析 可 以 研究 owl:sameAs 在 真实 数据 网 络 中 
的 配置 情况 。 

(1) 连接 组 件 规模 

样本 数据 集 包 含 80 521 个 无 重复 的 URI 资源 和 
42 341 个 唯一 性 sameAs 陈述 , 把 RDF 资源 表示 成 节 
点 ,用 有 向 线 表 示 owl:sameAs 关系 ,因此 形成 的 
sameAs 网 络 中 共有 80 521 个 节点 和 42 341 条 有 向 边 。 

在 网 络 G=(VB) 中 (其 中 V 称 为 节点 集 ，E 称 为 边 
集 )， 如 果 有 一 部 分 图 CV, E), VÆ V 的 子 集 , F 
iE ETE, H 了 中 的 任意 一 条 边 ej 必定 与 三 中 的 
边 ei 对 应 ， 则 称 OCE G 全 部 的 子 图 。 若 一 个 图 G 中 
的 每 对 不 同 节点 vi, vi 之 间 都 至 少 存在 一 条 简单 路 径 ， 
则 称 该 图 G 是 连通 的 。 连通 子 图 指 网 络 G 中 的 一 个 子 
图 , 在 这 个 子 图 中 任意 两 个 节点 之 间 都 至 少 存在 一 条 
简单 路 径 WH。 如 果 把 一 个 有 向 图 的 所 有 有 向 边 用 无 向 
边 蔡 换 掉 后 生成 一 个 连通 (无 向 ) 图 , 这 个 有 向 图 就 被 
称 为 是 弱 连 接 。 一 个 无 向 图 G 的 最 大 连通 子 图 被 称 为 
一 个 连接 组 件 。 一 个 网 络 可 能 存在 多 个 连接 组 件 。 
1 为 样本 sameAs 网 络 中 的 一 个 连接 组 件 ， 其 规模 (用 
节点 个 数 表 示 ) 为 20。 样 本 sameAs 网 络 的 所 有 连接 组 


件 规模 分 布 如 图 2 所 示 , 横 坐 标 为 连接 组 件 规模 (用 节 
点 个 数 表 示 ), 纵 坐 标 为 对 应 规模 的 连接 组 件 个 数 。 该 
网 络 中 共有 38 558 个 连接 组 件 ， 每 个 连接 组 件 平均 覆 
盖 了 2.1 个 URI 资源 。 97% 的 连接 组 件 规 模 为 2， 即 只 
在 两 个 RDF 资源 间 建 立 了 owl:sameAs 连接 。 大 型 连 
接 组 件 较 少 ， 有 个 别 连接 组 件 包含 上 百 个 RDF 资源 。 
大 规模 连接 组 件 呈现 星 型 拓扑 结构 ， 由 较 少 节点 作为 
中 心 节点 , 将 来 自 其 他 数据 集 的 “等 同 ” 资 源 聚 集 在 一 
起 。 因此 , 样本 sameAs 网 络 的 典型 尺寸 是 一 个 比较 小 
的 常数 , 并 且 规 模 增长 也 是 比较 缓慢 的 。 
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图 1 样本 sameAs 网 络 中 的 一 个 连接 组 件 


38000 


un 
= 
© 


350 


N 
2 
© 


连接 组 件 个 数 
BEEN 


= 
© 


0 5 10 15 20 25 30 35 40 45 50 
连接 组 件 规模 


图 2 连接 组 件 规模 分 布 
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Q) 节点 的 度数 、 入 度 和 出 度 

度 是 描述 节点 属性 的 重要 概念 。 在 网 络 中 , 节点 
Vi 的 邻 边 数目 k; 称 为 该 节点 的 度 。 一 个 节点 的 度 越 大 ， 
该 节点 越 重 要 。 对 网 络 中 所 有 节点 的 度 求 平均 , 可 得 
到 网 络 的 平均 度 。 有 向 网 络 中 与 某 个 节点 相连 的 线 既 
有 指向 节点 的 , 也 有 从 节点 发 出 的 , 因此 也 有 必要 分 
开 统计 两 个 方向 的 连 线 数 ， 前 者 称 为 节点 的 和 人 度 ， 后 
者 称 为 出 度 。 在 社交 网 络 中 , 通常 将 人 度 视 为 声望 , 将 
出 度 视 为 合群 性 Ml。 

样本 sameAs 网 络 中 ， 节 点 度数 分 布 如 图 3 所 示 。 
98% 的 节点 的 度数 为 1， 即 只 与 一 个 节点 进行 sameAs 
关联 , 分 布 尾部 稀少 , 少量 的 节点 与 较 多 的 RDF 资源 
进行 了 sameAs 关联 。 节 点 度数 分 布 图 在 头 部 呈现 出 
指数 行为 ， 尾 部 呈现 长 尾 特征 。 样本 sameAs 网 络 的 结 
构 特 征 表明 即使 个 别 节 点 失效 ,不 至 于 影响 整体 的 稳 
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常 少 , 基于 sameAs 进行 语义 聚合 时 要 适当 考虑 此 类 
情况 。 
3.2 sameAs 网 络 域名 分 析 

顶级 域名 通常 可 以 用 来 识别 关联 数据 的 发 布 
者 ， 即 资源 的 拥有 者 ( 即 拥 有 URIs 命名 空间 并 且 对 
相关 URIs 作出 官方 描述 的 责任 人 )。 通 篆 假 设 顶级 
域名 相同 的 数据 属于 一 个 数据 集 门 。 对 于 单个 域名 
下 包含 多 个 数据 集 的 情况 , 单独 处 理 这 部 分 数据 。 
研究 顶级 域名 之 间 的 连接 情况 可 以 发 现 数据 集 之 间 
的 关联 情况 。 从 这 些 sameAs 陈述 中 提取 所 有 RDF 
资源 的 域名 ,进而 统计 分 析 不 同 数据 集 之 间 的 
owl:sameAs 连接 情况 。 经 过 对 80521 个 资源 URIs 
的 提取 ,得 到 136 个 不 同 顶 级 域名 。 利 用 Gephi 2 
制 基于 实例 sameAs 连接 的 域名 网 络 结构 图 ， 并 通过 


定性 , 但 高 度数 节点 失效 , 会 对 关联 数据 网 络 造 成 一 
定 的 影响 。 
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图 3 节点 度数 分 布 

节点 的 入 度 范围 在 0-7 之 间 , 48.6% 的 节点 入 度 为 
0, 50.7% 的 节点 入 度 为 1。 市 点 的 出 度 范围 在 0-131 之 
间 , 51.3% 的 节点 出 度 为 0, 47.6% 的 节点 出 度 为 1。 两 
个 RDF 资源 间 大 多 数 为 单 向 连接 :只 有 极 少 数 RDF 
资源 间 建 立 了 双向 连接 。RDF 资源 更 容易 与 其 他 数据 
集中 的 资源 主动 建立 owl:sameAs 连接 。 正 如 Vatant 
Hili, "4 owl:sameAs 用 于 数据 融合 时 未 必 是 对 称 属 
性 ,假设 A 拥有 资源 a,B 拥 有 资源 b, “a owl:sameAs b" 
并 不 意味 着 “b owl:sameAs as RHA A 声明 了 “a 
owl:sameAs b", B 也 声明 了 “b owl:sameAs a”,a 和 b 这 
两 个 RDF 资源 才 被 认为 有 强 等 同 关 系 " 了 41。 在 样本 
sameAs 网 络 中 , RDF 资源 间 建 立 了 双向 连接 的 情况 非 
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特定 的 布局 工具 对 节点 进行 类 聚 和 排列 ， 最 终 效果 
如 图 4 所 示 。 在 该 图 中 , 不 同 节 点 代表 不 同 的 数据 
集 , 节点 颜色 的 深浅 代表 入 度 的 大 小 , 节点 的 大 小 
代表 出 度 的 大 小 ， 有 向 连 线 代 表 数 据 集 之 间 的 
sameAs 连接 , 连 线 的 粗细 代表 连接 的 权重 。 发 出 有 
向 连 线 的 节点 一 方 称 为 源 数 据 集 ， 有 回 连 线 指 向 的 
节点 一 方 称 为 目标 数据 集 。 

从 图 4 中 可 以 看 到 不 同 数据 发 布 者 之 间 的 联系 : 
SEC Edgar (edgarwrap.ontologycentral.com)|r] Freebase 
Gdf freebase.com) 建 立 了 密集 的 sameAs 连接 , DBTune 
(dbtune.org， 提 供 音 乐 相 关 的 结构 化 数据 ) 和 BBC 
(bbc.co.uk) XZ, DrugBank (wifo5-04.informatik.uni- 
mannheim.de/drugbank/， 药 物 库 ) 和 LinkedCT (data. 
linkedct.org, 临床 试验 关联 项 目 ) 之 间 也 建立 了 数量 可 
观 的 sameAs 连接 。 笔 者 认为 彼此 之 间 建 立 了 大 量 
sameAs 连接 的 域名 ,从 不 同 角 度 描述 了 相似 的 话题 。 
利用 Gephi 中 的 布局 工具 ， 把 性 质 相 同 的 节点 聚 在 一 
起 并 从 整体 上 作 有 序 排列 ， 有 利于 进一步 发 现 享 有 共 
同 知 识 和 兴趣 的 数据 发 布 者 。 在 图 4 中 可 以 看 到 一 些 
比较 大 的 复 ， 如 以 DBpedia 为 中 心 、 以 BibSonomy 为 
rue]. DBpedia 与 许多 大 规模 的 数据 集 和 本 体 实 
现 关联 和 互 操作 , 而 由 于 DBpedia 广泛 的 主题 覆盖 ， 
因此 它 也 被 各 种 数据 集 首 选 作 关联 目标 。 在 样本 
sameAs 网 络 中 , 进一步 验证 了 DBpedia 被 称 为 “关联 
中 转 站 ”这 一 事实 器。BibSonomy 是 由 Kassel 大 学 中 
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知识 和 数据 工程 组 研究 的 用 于 共享 标签 和 文献 列表 的 
推荐 系统 ， 旨 在 整合 书签 系统 和 团队 出 版 物 管理 的 特 
征 , 使 用 户 能 够 储存 和 组 织 标签 及 发 布 的 条 目 5。 

BibSonomy 通过 提供 文献 交流 的 社会 平台 , 支持 不 同 
社区 和 用 户 合作 。 以 BibSonomy 为 中 心 的 篮 代 表 一 个 
社区 ， 其 成 员 ACM 数字 图 书馆 (http://dl.acm.org/) 等 发 
布 关于 学 术 期 刊 及 文献 的 信息 , DBLP (http://dblp.uni- 
trier.de/) 等 提供 关于 计算 机 科学 期 刊 和 论文 集 的 开放 
书目 信息 ，NCBI(https://www.ncbi.nlm.nih.gov/) 作 为 国 
家 生物 技术 信息 中 心 发 布 相 关 科 学 研究 数据 。 由 于 本 
文 数据 是 真实 数据 网 络 中 的 一 部 分 , 在 样本 数据 中 ， 
BibSonomy 作为 中 心 点 , 与 之 关联 的 数据 集 较 多 , 但 
其 与 每 个 关联 数据 集 之 间 的 sameAs 陈述 并 不 多 。 也 
正 是 由 于 这 个 原因 , BE LOD 云图 中 , DBLP、NCBI 
等 数据 集 与 DBpedia 都 是 有 连接 的 , 但 由 于 样本 数据 
中 恰好 没有 这 部 分 sameAs 陈述 , 因此 在 图 4 中 没有 看 
到 上 述 数 据 源 与 DBpedia 的 连接 。 另 外 , 还 有 一 些 比 
较 小 但 有 意思 的 复 ， 如 以 EUscreen (http:/lod. 
euscreen.eu/) 为 中 心 的 复 。EUscreen 旨 在 创造 欧洲 电视 
节目 、 二 次 资源 及 文章 的 收集 ， 以 便 学 生 、 学 者 和 普 


ex -P- 
B^ ham 
E 
图 4 样本 sameAs 网 络 域名 网 络 结 构图 


通 大众 获 取 使 用 "5 因此 其 以 关联 数据 的 形式 发 布 相 
关内 容 , 使 用 户 不 仅 能 通过 标准 网 络 技术 获取 和 检索 
相关 元 数据 ,而 且 能 发 现 更 多 相关 的 可 用 数据 ,进而 
通过 应 用 程序 集成 EUscreen 收集 的 数据 。 

为 深入 了 解数 据 集 之 间 的 连接 情况 ,对 每 个 数据 
集 的 入 度 和 出 度 进行 统计 并 比 对 。 如 图 5 所 示 , 蓝 色 的 
线 代表 数据 集 的 入 度 , 红色 的 线 代表 数据 集 的 出 度 。 发 
现 高 度 链接 的 数据 集 较 少 且 其 入 度 和 出 度 相差 较 大 ， 
大 部 分 数据 集 度数 较 低 、owl:sameAs 连接 稀 巩 ， 部 分 数 
据 集 只 有 入 度 或 出 度 ( 即 要 么 被 动 关 联 要 人 么 主动 关联 )。 
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图 5 数据 集 的 入 度 分 布 和 出 度 分 布 
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3.3 ”基于 owksameAs 的 实例 类 型 分 析 

了 解 真实 数据 网 络 中 建立 了 owl:sameAs 连接 的 
实体 对 象 类 型 有 助 于 探寻 关联 数据 的 分 布 和 应 用 领 
域 , 从 而 开拓 不 同 领域 的 关联 发 现 和 应 用 。 因 此， 基于 
owl:sameAs 连接 ,对 源 数据 集中 实例 的 rdftype 信息 
进行 提取 并 统计 分 析 。 由 于 数据 发 布 者 可 以 从 不 同 维 
度 描述 同一 实体 对 象 ， 因 此 同一 实体 常 对 应 多 个 类 型 。 
在 源 数据 集中 ,总 共 获 得 5 155 个 RDF 资源 的 9056 个 
类 型 信息 。 其 中 有 340 个 实体 对 象 对 应 的 类 型 数目 大 于 
1, DBpedia 中 的 足球 运动 员 艾 度 斯 恩 (Connally Edozien) 
所 属 的 类 型 更 是 多 达 65 ^p, 其 所 属 类 型 从 不 同 角度 描 
述 了 同一 个 人 。 为 避免 多 次 重复 统计 同一 个 实体 对 象 ， 
对 于 类 型 数目 大 于 1 的 实体 只 取 其 中 一 个 类 型 (并 不 影 
响 其 最 终归 并 后 的 类 型 )， 经 过 分 组 汇总 最 终 获 得 181 
个 有 效 的 以 HTTP. 形式 表示 的 不 同类 型 信息 及 其 对 应 
的 实体 个 数 。 基 于 类 型 查看 建立 了 owl:sameAs 连接 的 
实体 对 象 类 型 并 再 次 归并 及 统计 其 数目 , 结果 如 图 6 所 
示 ( 对 于 拥有 实例 数目 小 于 20 的 类 型 在 此 处 不 作 讨 论 )。 
可 以 看 到 关联 数据 网 络 中 , 建立 了 最 多 owl:sameAs jE 
接 的 实体 对 象 类 型 为 人 名 , 其 次 分 别 是 地 名 、 医 药 类 名 
称 、 机 构 名 称 、 电 影 等 。 

近 几 年 , 利用 实例 数据 进行 概念 对 齐 显 示 出 其 有 
效 性 ,Parundekar 等 后 提出 识别 包含 于 概念 的 等 同 实例 
将 会 导致 这 些 概念 之 间 的 对 齐 。 同 时 对 源 数据 集 和 目 
标 数 据 集 中 由 owl:sameAs 连接 的 实例 的 rdf:type 信息 
进行 统计 ， 有 利于 发 现 不 同 数据 集中 可 对 齐 的 概念 ， 
同时 可 以 帮助 了 解 不 同 数据 集 之 间 建 立 owl:sameAs 
连接 的 深层 次 原因 。 图 7 是 对 样本 数据 集中 的 一 个 
owl:sameAs 连接 同时 获取 其 RDF 资源 的 类 型 信息 。 
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图 6 基于 owl:sameAs 连接 的 实体 对 象 类 型 分 布 


dbpedia: place Lgdo: City 


个 rdf type rdf: type 个 


line 
dbpedia: Berlin lgdo: node240109189 


7 基于 owl:sameAs 连接 的 实例 的 rdf:type 
信息 获取 

从 图 7 可 以 看 到 在 DBpedia 数据 集中 ,柏林 
(dbpedia: Berlin) 是 dbpedia:place 类 的 一 个 实例 , 在 
linkedgeodata 数据 集中 lgdo: node240109189 是 
lgdo:City 类 的 一 个 实例 ， 因 而 可 知 dbpedia:place 和 
lgdo:City 这 两 个 概念 至 少 是 有 交集 的 。 在 样本 数据 集 
中 , 基于 owl:sameAs 连接 同时 获取 源 数据 集 和 目标 数 
据 集中 实例 的 rdf:type 信息 ,共计 得 到 625 条 记录 。 基 
于 这 625 条 记录 统计 源 数据 集 和 目标 数据 集 使 用 最 多 
的 type 类 型 对 ， 如 表 3 所 示 。 


Y 


表 3 基于 owl:sameAs 连接 的 源 数据 集 和 目标 数据 集 常用 type 


基于 owl:sameAs 连接 的 最 常用 的 type 对 


iind didi 源 数 据 集 type 目标 数据 集 type 
<http://www.abes.fr/foafPerson> <http://xmlns.com/foaf/0.1/Person> 
theses.fr idref.fr «http://www.abes.fr/foafAgent^ «http://xmlIns.com/foaf/0. 1/Person^ 
«http://www.abes.fr/foafAgent^ «http://xmlIns.com/foaf/0.1/Organization^ 
d-nb.info dbpedia.org D DEED «http://dbpedia.org/class/yago/Travelerl09629752- 
morelab.deusto.es ^ dblp.13s.de «http://swrc.ontoware.org/ontologyZArticle» ^ «http://purl.org/dc/demitype/Text^ 


wals.info glottolog.org 


«http://purl.org/dc/terms/LinguisticSystem 


«http://purl.org/linguistics/gold/Language^ 


didactalia.net data.nytimes.com 


«http://rdfs.org/sioc/typesTag^ 


«http://www.w3.0rg/2004/02/skos/corez?Concept^ 
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K 3 中 , 通过 第 1、2、3、4 行 可 以 看 出 : 基于 
owl:sameAs 实例 连接 , 源 数据 集 和 目标 数据 集 可 以 尝 
试 进行 对 齐 的 概念 有 哪些 ,这 为 将 来 不 同 数 据 集 的 概 
念 之 间 的 对 齐 提供 了 有 益 的 参考 。 第 5 行 中 对 于 
nytimes 数据 集 , 虽然 其 包含 丰富 的 术语 层次 , 但 只 涵 
xu f RAPPER, 大 部 分 实体 归属 于 skos:Concept 这 
个 概念 ， 因 此 该 数据 集 与 其 他 数据 集 进行 本 体 对 齐 时 
提供 的 概念 非常 有 限 。 


4 讨 it 


sameAs 网 络 特征 表明 大 部 分 节点 只 有 一 个 
owLsameAs 连接 ,少数 节点 拥有 多 个 甚至 大 量 的 
owLsameAs 连接 。 现 实 网 络 具 有 优先 连接 的 特征 ， 即 
新 的 节点 更 倾向 于 与 那些 具有 较 高 度 的 “大 ”节点 相连 
接 , sameAs 网 络 同样 具有 这 种 特征 。 对 于 sameAs 网 络 
而 言 ， 大 部 分 节点 随机 失效 基本 不 会 影响 其 连通 性 ， 
但 少数 重要 节点 的 失效 就 会 对 网 络 的 连通 性 造成 一 定 
影响 ,进而 影响 数据 的 关联 。sameAs 网 络 连接 组 件 规 
模 较 小 (典型 尺寸 为 2), 不 利于 数据 集 之 间 关 联 关系 的 
扩散 。 有 时 数据 发 布 者 并 不 热衷 于 声明 owl:sameAs 
连接 也 会 影响 到 连接 组 件 的 规模 。 

对 基于 owl:sameAs 实例 连接 的 部 分 数据 集 的 入 
度 和 出 度 进行 统计 ,发 现 综合 类 知识 库 ( 如 DBpedia, 
Freebase) 及 同类 领域 中 的 知名 数据 集 ( 如 地 理 领 域 中 
的 GeoNames) 容 易 被 其 他 数据 集 信任 并 作为 链接 资 
JR, 因此 这 些 数据 集 往往 具有 高 人 度 。 其 中 一 些 数据 
集 的 人 度 和 出 度 相 差 较 大 , 如 DBpedia, ARER AIHH, 
作为 知名 数据 集 由 于 内 容 跨 度 大 而 被 后 发 布 的 数据 集 
积极 关联 ， 而 出 度 小 则 说 明 其 发 布 较 早 旦 后 期 维护 潍 
Jk, 致使 其 未 能 与 后 发 布 到 LOD 中 的 数据 集 主动 关 
联 ， 从 而 减少 了 数据 集 之 间 的 互联 。 跨 领域 中 的 语言 
资源 Lexvo 数据 集 具 有 高 出 度 而 无 人 度 , 这 是 由 于 其 
需要 确保 所 发 布 的 资源 即 有 关 语 言 的 实体 对 象 可 以 与 
网 络 中 多 样 化 的 资源 建立 密集 的 关联 ， 因 此 它 与 较 多 
数据 集 的 实体 对 象 主动 建立 了 owl:sameAs 关联 。 
BibSonomy 数据 集 与 之 类 似 ， 出 度 远 远 超过 入 度 , 说 
明 其 作为 分 享 标签 和 文学 作品 的 推荐 系统 基于 自身 属 
性 从 而 积极 与 有 着 类 似 话题 的 数据 集 建立 关联 ,而 被 
其 关联 的 数据 集 大 多 是 出 版 物 领 域 较 知 名 权威 的 期 刊 
或 科研 组 织 ， 由 于 发 布 数 据 集 的 出 发 点 不 同 、 时 间 先 


后 不 同 、 发 布 者 的 地 位 不 同等 原因 , 在 其 之 间 未 能 
立 对 等 连接 。 在 整个 数据 网 络 中 ,对 不 同 数据 集中 同 
一 实体 的 关联 发 现 还 有 很 大 的 开拓 空间 。 


5 结 语 


互 连 数据 集 通 党 具有 互补 数据 , 某 一 实体 的 事实 
可 能 分 布 于 若干 数据 集 , 将 同一 实体 的 不 同属 性 及 属 
性 值 聚 合 可 以 产生 基于 不 同 观 点 的 实体 的 完整 呈现 。 
因此 ，owl:sameAs 连接 在 数据 集 互 联 中 起 着 举足轻重 
的 作用 。sameAs 网 络 结构 具有 连接 组 件 规模 较 小 ,高 
度数 节点 稀 鸣 ， 大 部 分 节点 连接 单一 化 ,节点 出 、 入 度 
分 布 曲线 具有 在 头 部 呈 窜 率 分 布 、 尾 部 呈 长 尾 分 布 的 
特征 。 基 于 owl:sameAs 连接 的 关联 数据 集 大 部 分 连接 
稀 踊 ， 高 度 链接 的 数据 集 较 少 且 其 中 部 分 出 人 度 相 差 
较 大 -LOD 云图 中 的 数据 集 大 部 分 基于 实例 对 齐 技术 ， 
通过 实例 级 关系 相互 连接 ,而 基于 实例 的 owl:sameAs 
连接 可 以 进行 概念 对 齐 、 属 性 对 齐 等 ， 从 而 实现 本 体 
对 齐 。 本 体 对 齐 通过 为 数据 聚合 、 跨 数据 集 查询 、 知 
识 获取 提供 解决 方案 ,从 而 使 LOD 数据 集 的 事实 和 信 
息 呈 现 更 加 有 用 。 在 数据 网 络 中 ， 从 不 同 数据 集中 找 
到 “等 同 ” 实 例 是 有 挑战 性 的 ， 发 现 分 布 于 不 同 数据 集 
的 等 同 实体 并 为 之 建立 owl:sameAs 连接 , 需要 进一步 
提高 相关 技术 、 完 善 关 联机 制 。owl:sameAs 属性 是 否 
具有 对 称 性 、 传 递 性 、 适 用 条 件 以 及 owl:sameAs 属性 
在 推理 中 的 应 用 机 制 , 这 些 问 题 需要 在 今后 进一步 研 
究 , 它们 的 应 用 势必 会 改变 sameAs 网 络 的 结构 。 
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Analyzing owl:sameAs Network in Linked Data 


Jia Junzhi Li Xiao 
(School of Economics and Management, Shanxi University, Taiyuan 030006, China) 


Abstract: [Objective] This paper examines the application of the owl:sameAs link in the Web of Data. [Methods] First, 


we extracted owl:sameAs links from the BTC 2014 dataset. Then, we analyzed the structure of the sample data, as well 


as their domain names and instance types. [Results] The retrieved links of owl:sameAs were sparse, and most entities 


only had single connection between each other. [Limitations] The size of our sample data was small, and more 


comprehensive analysis was needed. [Conclusions] Our study lays some foundations for data integration, ontology 


alignment, knowledge discovery of the Web of Data. 
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